Franz Xaver Messerschmidt from 1777

Franz Xaver Messerschmidt from 1777

Introduction

Dans cette étude on s’appuie sur un indicateur de sentiment , le NRC, qui présente l’avantage d’être disponible en français mais aussi d’offrir différents indicateurs de sentiment, des polarité, et une palette d’émotion qui s’appuient sur les travaux de pluchnik.

On explore la sensibilité et la cohérence de cet indicateur dans cette note technique et on y découvre le moyen de distinguer les contributions constructives des revendications dénonciatrices.

Initialisation des packages

voir le rmd dans le projet github

Extraction et recodage des données

voir le rmd dans le projet github

Analyse du sentiment

on utilise le package syuzhet et en particulier le dictionnaire “nrc” developpé par Mohammad, Saif M. et al pour la raison pratique que lui seul propose un dictionnaire en français.

On filtre le corpus sur un critère de 50 caractères minimum ou une dizaine de mots. Pour l’instant on élimine pas les textes très longs qui contribuent plus que proportionnellement au corpus (voir distribution des caractères dans la note 1. Une option est de travailler sur l’ensemble du texte en concaténant les variables textes. C’est cette option qui est choisie.

#on selectionne le corpus minimal
#concat
df$title[is.na(df$title)]<-" "
df$Organisation_EASP[is.na(df$Organisation_EASP)]<-" "
df$Missions_dec[is.na(df$Missions_dec)]<-" "
df$SP_Manquants[is.na(df$SP_Manquants)]<-" "
df$SP_Nouveaux[is.na(df$SP_Nouveaux)]<-" "
df$SP_Evolution[is.na(df$SP_Evolution)]<-" "
df$SP_Evolution2[is.na(df$SP_Evolution2)]<-" "

df2<-df %>% unite_("text", c("title","Organisation_EASP","Missions_dec","SP_Manquants","SP_Nouveaux","SP_Evolution","SP_Evolution2"),sep = " ") 
df2$nbcar<-as.numeric(nchar(df2$text))
df2<-df2 %>% filter(nbcar>50)
#paramètres
method <- "nrc"
lang <- "french"
phrase<-as.character(df2$text)
#extraction
my_text_values_french<- get_sentiment(phrase, method=method, language=lang)

La distribution du sentiment

Le sentiment est plutôt positif, même si une fraction importante des contributions présentent des valeurs négatives. La variance est relativement élevées. Elle se distribue plutôt normalement au moins de manière symétrique.

La carte du sentiment

Il est difficile d’observer un pattern clair, les différences sont plus importantes sur un plan individuel.

## Reading layer `DEPARTEMENT' from data source `C:\Users\UserPC\Documents\AtelierR\GiletJaune\Map\DEPARTEMENT.shp' using driver `ESRI Shapefile'
## Simple feature collection with 96 features and 4 fields
## geometry type:  MULTIPOLYGON
## dimension:      XY
## bbox:           xmin: 99038 ymin: 6046556 xmax: 1242436 ymax: 7110480
## epsg (SRID):    NA
## proj4string:    +proj=lcc +lat_1=44 +lat_2=49 +lat_0=46.5 +lon_0=3 +x_0=700000 +y_0=6600000 +ellps=GRS80 +units=m +no_defs

Quelques déterminants départementaux

On peut expliquer les variations du sentiment par des variables mesurées au niveau du départment. On teste ici des indicateurs simples :

  • Richesse en terme de niveau de vie
  • Densité de population
  • Densité de richesse

Seul le niveau de vie est lié de manière significative, mais on sera prudent avec ce niveau d’agrégation qui est sans doute insuffisemment granulaire. On peut parfaitement compléter par d’autres variables, et en particulier les niveaux d’éducation, ce qu’on fait monnery et al sur la participation. A developper donc.

## 
## Call:
## lm(formula = sentiment ~ NiveauVie_2015 + density_w + density_h, 
##     data = dep_d)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.69270 -0.12009  0.00494  0.15324  0.69430 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)  
## (Intercept)     2.596e-01  3.983e-01   0.652   0.5162  
## NiveauVie_2015  4.968e-02  1.968e-02   2.524   0.0134 *
## density_w      -1.333e-05  1.059e-05  -1.259   0.2113  
## density_h       3.640e-04  2.699e-04   1.349   0.1808  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2446 on 90 degrees of freedom
## Multiple R-squared:  0.1201, Adjusted R-squared:  0.09081 
## F-statistic: 4.096 on 3 and 90 DF,  p-value: 0.00896

L’accès aux SP, le souhait d’autonomie et la décentralisation

Une analyse de variance montre que l’accès difficile ou aisé aux services publiques n’explique pas le sentiment. En revanche, prendre parti pour la décentralisation, et plus encore pour l’autonomie des fonctionnaires, est associé à des contributions dont le contenu est plutôt positif.

Ceci peut s’expliquer par le fait de porter ces conceptions conduit à proposer des solutions alternatives et positives, la critique porte sur l’inéfficience du système et se déporte sur la propositions d’alternatives. La conception antagoniste est sans doute plus chargée de récriminations, elles se constitue dans une dénonciation de l’inéfficacité, et recommande de manière punitive des actions de réduction, de suppression, de contrôle accru. C’est une hypothèse qu’il va falloir éprouver dans l’analyse des contenus.

## 
## Call:
## lm(formula = sentiment ~ QTransfertMission + QAcces_SP + Qautonomie, 
##     data = df3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -38.888  -2.071  -0.305   1.899  44.899 
## 
## Coefficients:
##                                       Estimate Std. Error t value Pr(>|t|)
## (Intercept)                            2.10098    0.03615  58.120   <2e-16
## QTransfertMissionNe pas décentraliser -0.76621    0.03541 -21.636   <2e-16
## QAcces_SPAccès facile                 -0.02992    0.03734  -0.801    0.423
## QautonomiePas d'autonomie             -0.41677    0.03964 -10.514   <2e-16
##                                          
## (Intercept)                           ***
## QTransfertMissionNe pas décentraliser ***
## QAcces_SPAccès facile                    
## QautonomiePas d'autonomie             ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.995 on 53681 degrees of freedom
##   (31027 observations deleted due to missingness)
## Multiple R-squared:  0.01322,    Adjusted R-squared:  0.01316 
## F-statistic: 239.6 on 3 and 53681 DF,  p-value: < 2.2e-16
## Analysis of Variance Table
## 
## Response: sentiment
##                      Df Sum Sq Mean Sq  F value Pr(>F)    
## QTransfertMission     1   9684  9683.9 606.6965 <2e-16 ***
## QAcces_SP             1     27    26.7   1.6706 0.1962    
## Qautonomie            1   1764  1764.4 110.5391 <2e-16 ***
## Residuals         53681 856840    16.0                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Analyse des émotions - nrc

on utilise simplement la fonction get_nrc_sentiment, en précisant le dictionnaire français. L’échelle comprend en fait deux éléments : les 8 émotion de base au sens de pluchik, et deux indicateurs de polarité.

Les polarités

Les textes étant inégaux en taille on va ramener l’indicateur de polarité au nombre de caractères (une base de 100) de chaque contribution. En effet l’algo compte les valence et leur intensité est proportionnel à la longueur du texte. Ce qui est clairement démontré par la seconde figue.

A partir de ces deux mesures, 4 indicateurs peuvent êtres construits

  • Positivité : nombre de termes positifs pour 100 signes.
  • Négativitivé : nombre de termes positifs pour 100 signes.
  • Valence : rapport du nombre de termes positifs pour 100 signes sur les négatifs
  • Expressivité : nombre de termes positifs et négatifs pour 100 signes.

le dernier graphe pour apprend que les jugements plutôt positifs sont aussi les moins expressifs. On trouve ici un argument en faveur de l’analyse précédente.

Encore un peu de chloroplète…pour comparer emotionnalité et valence du discours. Il semblerait bien que l’emotionnalité soit associé à la négativité, les cartes se recoupent.

On testant la correlation au niveau du département, on s’aperçoit d’une corrélation très nette. Elle est moins évidente avec la positivité. Le caractère revendicatif est dépendant des arguments proposés : des solutions ou des dénonciations.

Les émotions

On se concentre sur les 8 facettes de l’émotion telle que conceptualisée par Plutchik

– trust goes from acceptance to admiration – fear goes from timidity to terror – surprise goes from uncertainty to amazement – sadness goes from gloominess to grief – disgust goes from dislike to loathing – anger goes from annoyance to fury – anticipation goes from interest to vigilance – joy goes from serenity to ecstasy

et mesurée sur la base des textes par l’outil NCR élaborée par Mohammad Saif et pour le français voir.

On peut raisonner en part relative des émotions dans le mesure où l’outil NCR compte les éléments probables de chacune des émotions. C’est pourquoi on recode les variables, encore une fois les textes long risquent de peser plus que les textes courts, la normalisation est nécessaire.

et la distribution spatiale des émotions : confiance et tristesse…

Les émotions et la politique du territoire

Le premier élément est que le sentiment est plus positif, ici sur le critère de confiance, quand l’accès aux services public est aisés que lorqu’il est difficile. Les différences en terme d’autonomie sont très faibles, en revanche une différenc eplus nette est observée entre ceux qui sont pour la décentralisation et ceux qui le sont moins. Les différences sont cependant très faibles.

Il reste a explorer systématiquement des autres émotions. Nous aurons au moins montré que l’on peut capter des différences émotionnelles à l’échelle du territoire. Un terrain de recherche est ouvert pour mieux en établir, la validité, la fiabilité et la sensibilité pour les employer dans des analyses plus fines. Notamment la manière dont les populations, distribuées dans situations sociales et spatiales particulières, expriment leurs sentiments et être capable de les comparer.

La tonalité positive qui est employée est très certainement lié aux biais de selection qui oeuvrent dans la participation. La véhémence est marginale.

## 
## Call:
## lm(formula = trust ~ QTransfertMission + QAcces_SP + Qautonomie, 
##     data = df2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.31166 -0.12984 -0.03635  0.08228  0.74256 
## 
## Coefficients:
##                                        Estimate Std. Error t value
## (Intercept)                            0.287740   0.002024 142.130
## QTransfertMissionNe pas décentraliser -0.025311   0.002001 -12.652
## QAcces_SPAccès facile                  0.023921   0.002097  11.407
## QautonomiePas d'autonomie             -0.004987   0.002250  -2.216
##                                       Pr(>|t|)    
## (Intercept)                             <2e-16 ***
## QTransfertMissionNe pas décentraliser   <2e-16 ***
## QAcces_SPAccès facile                   <2e-16 ***
## QautonomiePas d'autonomie               0.0267 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2183 on 50142 degrees of freedom
##   (34566 observations deleted due to missingness)
## Multiple R-squared:  0.006404,   Adjusted R-squared:  0.006344 
## F-statistic: 107.7 on 3 and 50142 DF,  p-value: < 2.2e-16
## Analysis of Variance Table
## 
## Response: trust
##                      Df  Sum Sq Mean Sq  F value  Pr(>F)    
## QTransfertMission     1    9.06  9.0632 190.1624 < 2e-16 ***
## QAcces_SP             1    6.11  6.1051 128.0973 < 2e-16 ***
## Qautonomie            1    0.23  0.2341   4.9114 0.02668 *  
## Residuals         50142 2389.77  0.0477                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Conclusion

Le résultat :

l’émotion du grand débat n’est pas celle de l’homme vexé que l’on attendait. Plutôt positive et neutre émotionnellement elle reflète des biais de sélection dans la participation.

Mais ce sont des variations qui semblent répondre à un schéma compréhensible : deux types de contributions , les unes constructives et apaisées, les autres plus revendicatives et expressives. Pourquoi dans certains endroits les unes prédominent sur les autres est un thème de recherche à approfondir.

##limites

L’analyse du sentiment est un processus plein de piège, et dépends des dictionnaires, celà pose un problème de qualité de la méthode. Il faudra sans doute des benchmark, au minimum l’établissement d’un standard, et examiner la convergence de différentes méthodes.

Mais ce n’est pas un problème pour l’analyse comparative si les biais sont systématiques et proportionnels. A défaut d’une mesure aux grandeurs établie, on dispose d’un instrument ordinal qui permet au point les comparaisons. Quant à la sensibilité et la fiabilité, une étape suivante sera d’étudier leur convergence avec d’autres méthodes.

la territorialité pose problème, le département n’est pas une bonne unité d’analyse, il moyenne les disparités d’espace et de surface. L’analyse doit être répliquée au niveau communal avec des comparaisons selon des types de communes, de manière à saisir les variations plus fines des environnement sociaux.

Références

Crédit photo à ajouter :

plutchik monnery Said